home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / inet / isoc / isoc_news / issue1-2 / n-1-2-040.31.1a < prev    next >
Text File  |  1993-03-01  |  4KB  |  84 lines

  1.  
  2.  
  3. N-1-2-040.31.1  Characterizing Information for Internet Resource 
  4. Discovery by Michael F. Schwartz*, <schwartz@latour.cs.colorado.edu>
  5.  
  6.  
  7. Resource discovery involves two basic problems: characterizing the
  8. resources of interest using name/attribute descriptions, and
  9. distributing this information so that it can be searched flexibly and
  10. efficiently.  In this article we consider the characterization
  11. problem.  We will consider attribute distribution and search in a
  12. future column.
  13.  
  14. The traditional approach to resource characterization is manual data
  15. registration, as used when loading an X.500 Directory System Agent.
  16. (A DSA might be loaded automatically from another database, but the
  17. original database will almost invariably have been created manually.)
  18. Manual registration is also used by Prospero, where users create
  19. "views" of existing files to organize them into related collections.
  20.  
  21. Manual characterization provides good control over what data is
  22. registered for each resource.  This may be important for controlling
  23. what data is visible, or for providing highly conceptual descriptions.
  24. On the other hand, manual characterization is painstaking and
  25. error-prone in a large, dynamically changing environment like the
  26. Internet, and the information produced can quickly become dated and
  27. incomplete.
  28.  
  29. To automate the process, a popular approach is extracting keywords
  30. from the contents of documents.  This technique is used by WAIS and    
  31. bibliographic indexing systems like the UNIX "bib/refer" system.  A
  32. simpler approach is to generate keywords from file and directory
  33. names.  This approach is used by Archie and tools like the UNIX "find"
  34. command.
  35.  
  36. Automatic characterization can produce poor quality keywords, causing
  37. searches to match too few or too many resources.  To improve keyword
  38. quality one can use techniques that exploit the context, semantics, or
  39. redundancy of the information being characterized.  For example, WAIS
  40. eliminates common words, extracts root forms of word variants, and
  41. generates relevance weightings by frequency of occurrence.
  42.  
  43. Since WAIS operates on very general information (textual documents
  44. about any topic), it only exploits characteristics of human language
  45. text.  Given a more focused resource discovery problem, more
  46. sophisticated characterization is possible.  For example, netfind
  47. supports Internet "white pages" user searches by extracting keywords
  48. from a large, contextually focused source (a "seed database" of host
  49. and organization lines gathered from USENET news headers), and by
  50. honing the quality of this information in several ways.  Biasing
  51. organization name selection from the seed database by frequency of
  52. occurrence eliminates many invalid search targets.  Exploiting
  53. relationships between the seed data and sources of data consulted at
  54. the sites where searches are performed (the Domain Naming System and
  55. the Simple Mail Transfer Protocol) narrows the scope of searches to
  56. small, promising subsets.
  57.  
  58. As a second example, my research group developed a set of graph
  59. algorithms to locate people with particular interests, to support
  60. "colleague discovery".  In essence, the algorithms exploit redundancy
  61. of graph neighbor information from the history of "From/To" lines
  62. monitored in electronic mail communications.  This technique could be
  63. applied in other realms as well, for example to discover relationships
  64. between data in a file system.
  65.  
  66. As a third example, my research group is developing mechanisms that
  67. produce keywords and human browseable summaries of file data, in a
  68. file type-specific fashion.  One summarizer extracts author, title,
  69. and abstract information from troff and TeX documents.  Another
  70. summarizer samples bitmaps down to icon size for user browsing.  A
  71. third summarizer extracts keywords in "manpages" associated with
  72. executable files.  We will develop more summarizers over time.
  73.  
  74. Information about Archie is available from quiche.cs.mcgill.ca, in
  75. archie.  Information about netfind, shared interest discovery, and
  76. file summarizers is available from ftp.cs.colorado.edu, in
  77. pub/cs/techreports/schwartz/RD.Papers.  Information about Prospero is
  78. available from cs.washington.edu, in pub/prospero.tar.Z.  Information
  79. about WAIS is available from think.com, in wais.  Information about
  80. the PSI X.500 pilot is available from uu.psi.com, in wp.
  81.  
  82.  
  83. * University of Colorado - Boulder
  84.